With the rise of task-specific pre-training objectives, abstractive summarization models like PEGASUS offer appealing zero-shot performance on downstream summarization tasks. However, the performance of such unsupervised models still lags significantly behind their supervised counterparts. Similarly to the supervised setup, we notice a very high variance in quality among summary candidates from these models whereas only one candidate is kept as the summary output. In this paper, we propose to re-rank summary candidates in an unsupervised manner, aiming to close the performance gap between unsupervised and supervised models. Our approach improves the pre-trained unsupervised PEGASUS by 4.37% to 7.27% relative mean ROUGE across four widely-adopted summarization benchmarks, and achieves relative gains of 7.51% (up to 23.73%) averaged over 30 transfer setups.
translated by 谷歌翻译
已知神经模型被过度参数化,最近的工作表明,稀疏的文本到语音(TTS)模型可以超过密集的模型。尽管已经为其他域提出了大量稀疏方法,但这种方法很少在TTS中应用。在这项工作中,我们试图回答以下问题:所选稀疏技术在性能和模型复杂性上的特征是什么?我们比较了Tacotron2基线和应用五种技术的结果。然后,我们通过自然性,清晰度和韵律来评估表现,同时报告模型规模和训练时间。与先前的研究相辅相成,我们发现在训练之前或期间进行修剪可以实现与训练后的修剪相似的性能,并且可以更快地进行培训,同时除去整个神经元降低了性能远不止于删除参数。据我们所知,这是比较文本到语音综合中稀疏范式的第一部作品。
translated by 谷歌翻译
会话问题生成(CQG)是机器通过对话等人类(例如交互式阅读理解)的重要任务。与传统的单转交问题(SQG)相比,CQG更具挑战性的意义,即生成的问题不仅需要有意义,而且要与发生的对话历史保持一致。虽然先前的研究主要集中于如何建模对话的流量和对齐,但迄今为止,尚无对模型必需部分和历史的部分进行全面的研究。我们认为,缩短上下文和历史是至关重要的,因为它可以帮助该模型对对话的一致性进行更多优化。为此,我们提出了一个两阶段CQG框架COHS-CQG,该框架采用COHS模块来缩短输入的上下文和历史记录。特别是,COHS选择连续的句子,并根据其相关性得分通过顶级P策略转弯。我们的模型在答案感和答案环境中都可以在COQA上实现最先进的表演。
translated by 谷歌翻译
对话状态跟踪器是为了跟踪对话中用户目标的设计,是对话系统中的重要组成部分。但是,对话状态跟踪的研究在很大程度上仅限于单形式,其中插槽和老虎机值受知识领域(例如带有餐厅名称和价格范围插槽的餐厅域)的限制,并且由特定的数据库架构定义。在本文中,我们建议将对话状态跟踪的定义扩展到多模式。具体来说,我们介绍了一项新颖的对话状态跟踪任务,以跟踪视频接地对话中提到的视觉对象的信息。每个新的对话说法都可能引入一个新的视频段,新的视觉对象或新对象属性,并且需要一个状态跟踪器来相应地更新这些信息插槽。我们创建了一个新的合成基准测试,并为此任务设计了一个新颖的基线视频 - 底盘变压器网络(VDTN)。 VDTN结合了对象级功能和段级功能,并学习视频和对话之间的上下文依赖性,以生成多模式对话状态。我们为国家生成任务以及一个自我监督的视频理解任务优化了VDTN,该任务恢复了视频段或对象表示。最后,我们培训了VDTN在响应预测任务中使用解码状态。加上全面的消融和定性分析,我们发现了一些有趣的见解,以建立更有能力的多模式对话系统。
translated by 谷歌翻译
神经模块网络(NMN)在图像接地任务中取得了成功,例如在合成图像上的视觉询问(VQA)。但是,在视频接地的对话任务中已经研究了NMN的非常有限的工作。这些任务通过附加的视觉时间差异和语言交叉转移依赖性扩展了传统视觉任务的复杂性。在最新的NMN方法上,我们介绍了视频接地的神经模块网络(VGNMN),以模拟视频基础语言任务中的信息检索过程,作为神经模块的管道。 VGNMN首先分解对话中的所有语言组件,以明确解决任何实体参考并从问题中检测相应的基于动作的输入。检测到的实体和动作被用作实例化神经模块网络并从视频中提取视觉提示的参数。我们的实验表明,VGNMN可以在充满挑战的视频对话基准以及视频质量质量标准测试中实现有希望的表现。
translated by 谷歌翻译
Compared to traditional visual question answering, video-grounded dialogues require additional reasoning over dialogue context to answer questions in a multi-turn setting. Previous approaches to video-grounded dialogues mostly use dialogue context as a simple text input without modelling the inherent information flows at the turn level. In this paper, we propose a novel framework of Reasoning Paths in Dialogue Context (PDC). PDC model discovers information flows among dialogue turns through a semantic graph constructed based on lexical components in each question and answer. PDC model then learns to predict reasoning paths over this semantic graph. Our path prediction model predicts a path from the current turn through past dialogue turns that contain additional visual cues to answer the current question. Our reasoning model sequentially processes both visual and textual information through this reasoning path and the propagated features are used to generate the answer. Our experimental results demonstrate the effectiveness of our method and provide additional insights on how models use semantic dependencies in a dialogue context to retrieve visual cues.
translated by 谷歌翻译
Task allocation is an important problem for robot swarms to solve, allowing agents to use reduce task completion time by performing tasks in a distributed fashion. Existing task allocation algorithms often assume prior knowledge of task location and demand or fail to consider the effects of the geometric distribution of tasks on the completion time and communication cost of the algorithms. In this paper, we examine an environment where agents must explore and discover tasks with positive demand and successfully assign themselves to complete all such tasks. We propose two new task allocation algorithms for initially unknown environments -- one based on N-site selection and the other on virtual pheromones. We analyze each algorithm separately and also evaluate the effectiveness of the two algorithms in dense vs. sparse task distributions. Compared to the Levy walk, which has been theorized to be optimal for foraging, our virtual pheromone inspired algorithm is much faster in sparse to medium task densities but is communication and agent intensive. Our site selection inspired algorithm also outperforms Levy walk in sparse task densities and is a less resource-intensive option than our virtual pheromone algorithm for this case. Because the performance of both algorithms relative to random walk is dependent on task density, our results shed light on how task density is important in choosing a task allocation algorithm in initially unknown environments.
translated by 谷歌翻译
我们建议并探讨可以将语言模型作为社会科学研究中特定人类亚人群的有效代理进行研究的可能性。人工智能工具的实践和研究应用有时受到有问题的偏见(例如种族主义或性别歧视)的限制,这些偏见通常被视为模型的统一特性。我们表明,一个这样的工具中的“算法偏见”(GPT-3语言模型)既是细粒度又是人口统计相关的,这意味着适当的条件会导致其准确地仿真来自各种人类的响应分布亚组。我们将此属性称为“算法忠诚度”,并在GPT-3中探索其范围。我们通过将模型调节在美国进行的多项大型调查中的数千个社会人口统计背景故事中调节,从而创建“硅样本”。然后,我们比较硅和人类样品,以证明GPT-3中包含的信息远远超出了表面相似性。它是细微的,多方面的,并反映了特征人类态度的思想,态度和社会文化背景之间的复杂相互作用。我们建议,具有足够算法的忠诚度的语言模型构成了一种新颖而有力的工具,可以促进各种学科的人类和社会的理解。
translated by 谷歌翻译
多语言转移技术通常改善低资源机器翻译(MT)。这些技术中的许多是不考虑数据特征的情况下应用的。我们在海地对英语翻译的背景下显示,转移效率与知识共享语言之间的培训数据和关系数量相关。我们的实验表明,对于超出真实数据阈值的某些语言,反向翻译的增强方法是适得其反的,而从足够相关的语言中的跨语言转移则是优选的。我们通过贡献了基于规则的法国人行曲拼字和句法引擎以及一种新颖的语音嵌入方法来补充这一发现。当与多语言技术一起使用时,拼字法转换使对常规方法的统计学显着改善。在非常低的牙买加MT中,用传输语言进行矫正相似的代码转换可产生6.63的BLEU点优势。
translated by 谷歌翻译
数字化和自动化方面的快速进步导致医疗保健的加速增长,从而产生了新型模型,这些模型正在创造新的渠道,以降低成本。 Metaverse是一项在数字空间中的新兴技术,在医疗保健方面具有巨大的潜力,为患者和医生带来了现实的经验。荟萃分析是多种促成技术的汇合,例如人工智能,虚拟现实,增强现实,医疗设备,机器人技术,量子计算等。通过哪些方向可以探索提供优质医疗保健治疗和服务的新方向。这些技术的合并确保了身临其境,亲密和个性化的患者护理。它还提供自适应智能解决方案,以消除医疗保健提供者和接收器之间的障碍。本文对医疗保健的荟萃分析提供了全面的综述,强调了最新技术的状态,即采用医疗保健元元的能力技术,潜在的应用程序和相关项目。还确定了用于医疗保健应用的元元改编的问题,并强调了合理的解决方案作为未来研究方向的一部分。
translated by 谷歌翻译